Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
>
Machine Learning & AI
> Generation
A Bunch of Biophysics is Loading ...
Generation
分子片段语言模型遇见蒙特卡洛树搜索:Trio框架的可解释靶向分子设计
分子片段语言模型遇见蒙特卡洛树搜索:Trio框架的可解释靶向分子设计 本文信息 标题: Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search 作者: Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu 发表时间: 2025年12月18日 单位: 深圳大学人工智能学院(中国)、诺丁汉大学宁波分校计算机科学学院(中国)、浙江大学药学院(中国) 引用格式: Ji, J., Yang, Z., Xu, D., Bai, R., Li, J., Hou, T., & Zhu, Z. (2025). Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search. arXiv preprint arXiv:2512.09566v2. 源代码: https://github.com/SZU-ADDG/Trio 摘要 药物发现是一个耗时且昂贵的过程,传统的高通量筛选和基于对接的虚拟筛选受限于低成功率和有限的可扩展性。尽管自回归、扩散和流模型等生成方法已经实现了超越枚举筛选的全新配体设计,但这些模型往往存在泛化能力不足、可解释性有限,以及过度强调结合亲和力而牺牲关键药理学性质的问题,从而限制了其转化应用。本文提出Trio框架,这是一个整合了基于片段的分子语言模型、强化学习和蒙特卡洛树搜索的分子生成框架,用于有效且可解释的闭环靶向分子设计。通过这三个关键组件,Trio实现了上下文感知的片段组装,确保物理化学性质和合成可行性,并在蛋白结合口袋内平衡探索新颖化学类型和利用有希望的中间体之间取得平衡。实验结果表明,Trio能够可靠地生成化学有效且药理学性质优越的配体,在结合亲和力提升7.85%、类药性提升11.10%和合成可及性提升12.05%的同时,将分子多样性扩展了4倍以上。 核心结论 Trio框架整合了片段分子语言模型FRAGPT、直接偏好优化DPO和蒙特卡洛树搜索MCTS,实现了可解释的闭环靶向分子设计 在5个蛋白靶点上,Trio生成的分子在结合亲和力、类药性QED和合成可及性SA三个维度上全面超越现有方法 分子多样性相比基线方法提升4倍以上,有效拓展了可访问的化学空间 通过可视化的搜索树轨迹,Trio提供了前所未有的分子优化过程透明度,使药物化学家能够理解和信任设计结果 背景 药物发现是一项极其复杂、昂贵且耗时的工程,通常需要超过十年的持续努力和大量财务投资才能将单一治疗候选药物转化为临床批准的药物。传统的高通量筛选方法虽然做出了重要贡献,但常常受限于低命中率、不断增加的实验成本以及对广阔化学空间的有限覆盖。基于对接的虚拟筛选提供了一种有前景的计算替代方案,能够快速优先排序先导化合物并识别新的治疗机会。然而,这些方法仍然受到高假阳性率和内在可扩展性瓶颈的阻碍,特别是随着化学库在规模和结构复杂性上呈指数级增长。 近年来生成建模的进展代表了一种范式转变,提供了一种在特定任务优化约束下设计新型先导化合物的转型能力。自回归生成模型如Pocket2Mol、ResGen和FragGen能够直接从蛋白3D结构上下文中设计配体,但它们的严格顺序性质偏离了物理现实,累积的误差经常产生化学上不可信的结构。扩散和流模型如DiffBP、DiffSBDD和EquiFM通过同时生成所有原子来克服这些问题,但实验解析的蛋白-配体复合物的有限可用性继续阻碍模型训练,限制了其在实际药物发现应用中的泛化和鲁棒性。 为了克服蛋白条件生成模型的泛化限制,研究人员越来越多地从语言模型中汲取灵感。分子结构可以用SMILES、SELFIES和SAFE等文本格式表达,使得超大规模化合物库能够作为分子语言模型的宝贵训练语料库。代表性工作包括BindGPT、3DSMILES-GPT和TamGen,它们通过大规模预训练和强化学习改善了泛化能力。然而,当前的分子语言模型仍然不足以实现精确的蛋白口袋靶向,辅助优化程序常常过度强调结合亲和力而牺牲类药性QED和合成可及性SA,从而限制了其在药物发现中的转化效用。 关键科学问题 泛化能力不足:现有的蛋白条件生成模型受限于蛋白-配体复合物数据的稀缺性,难以泛化到新的靶点和化学空间,限制了其在实际药物发现中的应用价值 多目标优化失衡:当前方法往往过度关注结合亲和力的优化,而忽视了类药性、合成可及性等关键药理学性质,导致生成的分子难以进入后续的药物开发流程 可解释性缺失:现有模型的黑箱特性使得药物化学家无法理解分子优化的路径,难以合理化或信任设计结果,从而制约了其在药物发现中的广泛应用 化学空间探索受限:基于规则的搜索方法依赖于预定义的片段库和手工设计的连接规则,创造了复杂且低效的搜索过程,限制了可访问的化学空间 创新点 提出FRAGPT片段分子语言模型,使用基于BRICS算法的FragSeq表示,避免了SAFEGPT中数值连接标识符和环索引标记的句法复杂性,在1000万FragSeqs上预训练,实现了上下文感知的片段组装 采用直接偏好优化DPO而非传统的强化学习PPO,将分子语言模型与QED和SA等关键分子性质对齐,避免了模式坍缩问题,实现了平滑的性质偏好整合 将蒙特卡洛树搜索MCTS与DPO对齐的分子语言模型结合,利用上置信界UCB策略平衡探索和利用,通过亲和力、药代动力学和构效关系奖励引导片段组装轨迹,实现了可解释的闭环优化 提供完整的搜索树可视化,使研究人员能够系统追踪候选分子的演化谱系,揭示特定官能团和片段组合如何逐步增强预测结合亲和力,为药物化学家提供了可操作的见解 研究内容 方法概览:Trio的三阶段流程 Trio框架的整体生成流程可以分为三个阶段。第一阶段,使用自监督学习训练一个分子语言模型用于下一个片段预测任务。第二阶段,采用强化学习对分子语言模型进行微调,实现定制化的分子性质对齐。第三阶段,利用蒙特卡洛树搜索和对齐后的分子语言模型在三维蛋白口袋中逐步生成分子。 图1:Trio框架概览与动机 (a) 先前范式的局限性:基于序列的方法(SMILES模型)缺乏3D上下文和片段间语义;基于搜索的方法(GA/MCTS)依赖固定的片段库和手工规则,创造了复杂且缓慢的搜索过程;基于结构的生成器(2D/3D)需要稀缺的蛋白-配体对数据,且存在几何扭曲风险 (b) Trio流程: 阶段1:预训练FRAGPT:在FragSeqs上训练的片段语言模型,学习上下文感知的连接方式,逐步组装有效分子 阶段2:偏好对齐:使用QED/SA对进行DPO训练,使策略偏向可合成、类药性化合物 阶段3:口袋条件规划:DPO对齐的策略驱动MCTS,通过UCB在选择-扩展-模拟-反向传播过程中,结合亲和力奖励对路径进行排序 graph TB Start["开始"] --> SG1["阶段1<br/>FRAGPT预训练"] SG1 --> SG2["阶段2<br/>DPO偏好对齐"] SG2 --> SG3["阶段3<br/>MCTS靶向生成"] subgraph SG1["阶段1:分子语言模型"] direction LR D1["1000万FragSeqs<br/>数据集"] --> M1["GPT架构<br/>8730万参数"] M1 --> O1["输出:FRAGPT<br/>片段预测模型"] end subgraph SG2["阶段2:性质对齐"] direction LR D2["10万DPO对<br/>QED & SA偏好"] --> M2["直接偏好优化<br/>避免模式坍缩"] M2 --> O2["输出:FRAGPT-DPO<br/>类药性模型"] end subgraph SG3["阶段3:树搜索"] direction LR D3["蛋白口袋<br/>3D结构"] --> M3["UCB策略<br/>探索-利用平衡"] M3 --> O3["输出:高亲和力<br/>类药性分子"] end 阶段1:FRAGPT片段分子语言模型 FRAGPT采用类GPT架构,专门用于预测分子片段的自回归模型。原始SMILES字符串需要被修改为基于片段的SMILES标记进行训练。片段化方法不仅保留了片段内部的语义信息,还明确捕获了片段之间的化学相互作用。具体而言,使用BRICS算法将分子从左到右分解为多个FragSeqs,定义了16种化学环境来灵活确定合适的键断裂位点和保留的官能团。 FRAGPT使用基于正则表达式模式的分词器,专门针对SMILES语法定制。生成的词汇表包含约600个唯一标记,不仅包括标准化学标记(如原子、键、分支和环符号),还包括所有必需的特殊标记,如[BOS](序列开始)、[EOS](序列结束)、[SEP](片段标识符)和[PAD](填充指示符)。模型架构包含8730万参数,采用标准的自注意力机制和前馈网络。训练目标是最小化模型预测的标记概率分布与目标标记真实分布之间的交叉熵损失。 在1000万FragSeqs数据集上,使用6块NVIDIA A6000 GPU训练8个epoch,采用AdamW优化器($\beta_1=0.9$, $\beta_2=0.95$),学习率调度策略结合了初始预热阶段和后续线性衰减,批量大小为每GPU 32个样本。 图2:FRAGPT的全新生成和片段约束生成性能 (a) 两种基于片段的SMILES表示:SAFE使用索引原子(脆弱耦合)和位置数字(易出错编码),FragSeq使用独立片段(清晰的顺序流)和逐片段排序(有序且鲁棒) (b) 两种语言模型族:扩散模型使用随机采样,GPT使用逐步掩码预测 (c) 任务分类:Linker生成、Scaffold变形、Motif扩展、Scaffold装饰和Superstructure生成 Linker设计与Scaffold变形的本质区别:尽管两者在条件形式上相似(都需要同时满足起始和终止片段约束),但它们解决的化学问题截然不同。Linker设计LD专注于连接两个给定片段,生成的连接部分不能引入新的环系统,约束更为严格;而Scaffold变形SM则允许并鼓励通过添加新环来修改核心骨架结构,探索更广阔的化学空间。这种差异决定了LD适合优化已知骨架的连接方式,而SM适合探索新型骨架类型。 (d) 全新生成性能:FRAGPT仅用1%的SAFE数据集训练即达到或超越在完整语料库上训练的基线模型性能,展示了卓越的数据效率。FRAGPT的有效性、唯一性和多样性均接近100% (e) 片段约束生成的任务级性能:在LD(Linker设计)、SM(Scaffold变形)、ME(Motif扩展)、SD(Scaffold装饰)和SG(Superstructure生成)五个任务上,FRAGPT在有效性、唯一性、多样性和距离指标上均表现优异。即使在结构受限的Linker设计和Scaffold变形任务中,FRAGPT也展示了显著的生成多样性 阶段2:DPO直接偏好优化 DPO是什么? DPO(Direct Preference Optimization,直接偏好优化)是一种新型的模型对齐算法。传统的强化学习方法(如PPO)需要先训练一个独立的奖励模型来评价生成结果的好坏,然后再用这个奖励模型指导生成模型的优化。而DPO的核心创新是将生成模型本身视为奖励模型,直接从“好坏对比”数据中学习用户偏好,无需额外的奖励模型,既简化了训练流程,又避免了传统强化学习容易出现的模式坍塌问题(即输出过度集中到少数几个高分样本)。 通俗理解:想象你在教一个厨师改进菜品。传统方法(PPO)需要先培养一个专业美食评委,让评委给每道菜打分(比如85分、92分),然后厨师根据这些分数调整做法。这种方法的问题是:培养评委很费时间,而且评委的标准可能不稳定,导致厨师只会做几道“刷分菜”。DPO的做法更直接:每次给厨师看两道菜,告诉他“这道更好吃,那道差一些”,让厨师自己琢磨为什么。这种“品尝对比”的学习方式更自然,厨师不会被绝对分数束缚,而是逐渐理解“什么样的菜更好”,做出的菜品既符合标准又保持多样性。 在Trio框架中,DPO的作用是将FRAGPT从“能生成有效分子”提升到“生成类药性强、易合成的分子”。通过学习10万对“好分子vs坏分子”的对比数据,DPO让模型在保持生成多样性的同时,平滑地将分布向高QED(类药性)、低SA(易合成)的理想区域迁移。 训练流程 为了鼓励FRAGPT生成更合理的分子,采用DPO算法将模型平滑地对齐到更高的QED和更低的SA,而不是使用增强似然强化学习(会导致输出分布坍缩到期望性质的尖峰模式)。与需要训练辅助奖励模型的PPO不同,DPO将GPT策略本身视为奖励模型,这种设计在策略logits和奖励信号之间产生了显式映射,允许语言模型在没有额外批评器的情况下满足用户定义的偏好。 具体流程拆解(对照原文Page 18): 生成候选分子池:让初始的FRAGPT模型(称为参考策略$\pi_{\text{ref}}$)生成约10万个FragSeqs。这些分子从各种起始片段出发延伸而成,结构各异,性质参差不齐 制作“好坏对照表”:按照药物属性(QED类药性和SA合成难度)对每组分子排序,从排名的顶部和底部各抽取一个,组成“好分子-坏分子”配对。比如,同样从苯环片段出发,一个延伸成了QED高(类药性强)且SA低(易合成)的优质化合物,另一个延伸成了QED低且SA高的劣质结构,这就构成了一个训练样本对 让模型学习偏好——“反复展示对比”的具体操作: 不是人工展示:而是通过DPO损失函数$\mathcal{L}_{\text{DPO}}$自动优化模型参数 具体机制:对于每一对好坏分子$(y_g, y_l)$,模型计算生成它们的概率$\pi_\theta(y_g x)$和$\pi_\theta(y_l x)$。优化目标是让生成好分子$y_g$的概率相对于初始模型上升,同时让生成坏分子$y_l$的概率相对于初始模型下降 通俗理解:就像调整一个多选题答题策略——不需要知道正确答案得多少分,只需要知道“选A比选B好”,就能逐渐调整选择倾向。模型遍历10万对数据,每一对都贡献一个调整信号,最终学会在每个起始片段后优先选择那些导向高质量分子的token(片段) 关键优势:不直接告诉模型QED和SA的具体数值(避免对绝对分数的过拟合),只提供相对偏好信号(这个比那个好),让模型保持生成多样性的同时整体向高质量区域迁移 这样就构建了离线偏好数据集$\mathcal{D} = {(x^{(i)}, y^{(i)}g, y^{(i)}_l)}{i=1}^N$,其中$y^{(i)}_g$和$y^{(i)}_l$表示来自相同先验片段$x^{(i)}$但表现出更高和更低药物性质评分的FragSeqs。 然后,最大化强化MLM $\pi_\theta$相对于参考策略$\pi_{\text{ref}}$的似然,优化目标为: \[\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x,y_g,y_l)\sim\mathcal{D}}\log \sigma\left(\beta \log \frac{\pi_\theta(y_g|x)}{\pi_{\text{ref}}(y_g|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\] 其中$\sigma$是sigmoid函数,$\beta$是缩放系数,调整训练期间增强偏好和保留原始分布之间的权衡。 公式的通俗解释: 这个损失函数看起来复杂,但核心思想很简单——让模型在生成好分子时变得更自信,在生成坏分子时变得更犹豫。 概率比值 $\frac{\pi_\theta(y_g x)}{\pi_{\text{ref}}(y_g x)}$:表示“新模型生成好分子$y_g$的概率”相对于“旧模型生成好分子的概率”提升了多少倍。比如这个比值是2,说明新模型生成这个好分子的概率是旧模型的2倍 好坏对比 $\beta \log \frac{\pi_\theta(y_g x)}{\pi_{\text{ref}}(y_g x)} - \beta \log \frac{\pi_\theta(y_l x)}{\pi_{\text{ref}}(y_l x)}$:前一项是“好分子概率提升”,后一项是“坏分子概率提升”,两者相减就是好分子相对于坏分子的优势有多大。我们希望这个差值越大越好,即好分子概率涨得快,坏分子概率涨得慢(甚至下降) sigmoid转换 $\sigma(\cdot)$:把差值转换成0到1之间的概率,表示“模型是否正确地更偏好好分子” 负号和期望 $-\mathbb{E}[\log \sigma(\cdot)]$:负号表示最小化负对数似然,等价于最大化模型“做出正确偏好选择”的概率。期望符号表示对所有10万对数据求平均 简单来说:DPO通过这个损失函数,让模型在每次遇到选择时(比如从苯环出发,下一步加什么片段),逐渐提高选择导向好分子路径的概率,降低选择导向坏分子路径的概率,最终整体生成分布向高质量区域迁移。 图3:跨基线数据和生成模型的化学空间比较表征 (a) 二维t-SNE投影——DPO如何改变生成分布 vanilla FRAGPT(蓝色)几乎完全覆盖了训练集DATASET(灰色)的分布范围,说明模型忠实地学习了训练数据的多样性,但也继承了训练集中的低质量分子 FRAGPT-DPO(红色)将分布集中到数据密集核心,像是给原来分散的点云“做了一次聚焦”,重点生成位于化学空间中心区域的高质量分子(对照图3b/c可知这些区域对应高QED、低SA) 为什么“集中”是好事:这说明DPO成功地将生成重心从“覆盖全部训练集(包括边缘低质量区域)”转移到“聚焦高质量核心区域”,在保持化学多样性的同时显著提升了生成分子的平均质量 SAFEGPT由于其更大更多样的训练语料库,产生了几个在原始数据集中稀疏表示的高密度聚类,探索了更广阔的化学空间 (b) QED和SA分布的箱线图:vanilla FRAGPT紧密镜像训练集的联合QED-SA景观,SAFE在QED上有所改善但SA分布更广,FRAGPT-DPO显示QED明显上移和SA适度增加,伴随SA方差收缩 (c) QED-SA景观的六边形密度图:揭示了样本密度向化学理想区域的显著转移,有效消除了原始数据中存在的低质量长尾 (d) 生成分子亚结构的统计分析:顶部面板显示所有三个生成器紧密再现了原子类型、键类型和环大小分布的训练集统计。底部面板进一步揭示vanilla FRAGPT保留了所有三个描述符的相似频率,包括低频卤素(I, Br, Cl)和大环。FRAGPT-DPO放弃了化学不利的基序,从而相对于数据集改善了类药性和合成可及性 小编锐评:每次看到这些指标看起来都差不多,就觉得守着这么点数据卷AI模型实在没有意思……而且generation本身是个工程问题(不去挖底层物理化学规律就不是科学问题),没有用在制药公司的话实在是电子游戏……实践是检验真理的唯一标准,没有人知道新颖的化学空间是不是对的,拿这个来评价就很难评。侯老师工作里面的QED、SA这些真的是重要的指标啊,才是应该发扬光大的,但是吧,好像也没明显提升,本来就是符合一定标准就行了…… 阶段3:MCTS蒙特卡洛树搜索 Trio将对齐后的FRAGPT-DPO与MCTS算法结合,用于复杂的靶向分子设计。这种混合方法利用MCTS在平衡探索和利用方面的优势,促进了具有增强结合亲和力的更多样化分子生成。该算法包括四个典型阶段:选择、扩展、模拟和反向传播。 MCTS的通俗理解: 想象你在一个巨大的化学迷宫中寻找最好的分子,每个岔路口代表“添加哪个片段”的选择。MCTS就像一个聪明的探险家,采用“边探索边记录,择优深入”的策略: 探索vs利用的困境:是继续尝试新路线(探索),还是深挖已知的好路线(利用)?太保守会错过更好的分子,太冒险会浪费计算资源 MCTS的解决方案:用一棵搜索树记录所有尝试过的路径和它们的奖励(对接分数、QED、SA),每次迭代都基于历史经验做出更明智的选择,逐渐将搜索重心转向最有希望的区域 四个阶段的循环:选择(沿着最有潜力的路径向下走)→ 扩展(在叶节点添加新片段)→ 模拟(快速试探这条路能走多远)→ 反向传播(把结果反馈给路径上的所有节点)。这个循环重复数千次,树逐渐生长,好路径被反复加强,差路径被逐渐放弃 graph TB Start["初始化<br/>根节点[BOS]"] --> Loop["开始MCTS迭代"] Loop --> S1 subgraph S1["1.选择阶段Selection"] direction LR Sel1["从根节点出发"] --> Sel2["计算所有子节点的<br/>UCT值"] Sel2 --> Sel3["选择UCT最大的<br/>子节点前进"] Sel3 --> Sel4["重复直到<br/>到达叶节点"] end S1 --> S2 subgraph S2["2.扩展阶段Expansion"] direction LR Exp1["调用FRAGPT-DPO"] --> Exp2["输入:父节点的<br/>部分SMILES序列"] Exp2 --> Exp3["输出:下一个<br/>片段Fragment"] Exp3 --> Exp4["去重检测<br/>避免重复结构"] Exp4 --> Exp5["创建新子节点<br/>添加到搜索树"] end S2 --> S3 subgraph S3["3.模拟阶段Simulation"] direction LR Sim1["从当前节点出发"] --> Sim2["FRAGPT快速rollout<br/>生成至[EOS]"] Sim2 --> Sim3["得到完整分子<br/>SMILES序列"] Sim3 --> Sim4["AutoDock Vina<br/>对接到蛋白口袋"] Sim4 --> Sim5["计算奖励R<br/>对接分数+QED+SA"] end S3 --> S4 subgraph S4["4.反向传播阶段Backpropagation"] direction LR Back1["从叶节点向上<br/>回溯到根节点"] --> Back2["更新访问次数<br/>N<sub>j</sub> ← N<sub>j</sub> + 1"] Back2 --> Back3["累积奖励<br/>Q<sub>j</sub> ← Q<sub>j</sub> + R"] Back3 --> Back4["强化高奖励路径<br/>抑制低奖励分支"] end S4 --> Check{"是否达到<br/>迭代次数上限?"} Check -->|"否<br/>继续探索"| Loop Check -->|"是<br/>搜索完成"| Output["输出奖励最高的<br/>完整分子"] 选择阶段:在化学决策树中导航 采用修改的上置信界UCT准则来选择具有高潜在奖励的子节点,同时保持探索的多样性。子节点$j$的UCT值公式为: \[\text{UCT}_j = \alpha \times \text{average}(a_j) + (1-\alpha) \times \text{max}(a_j) + C\sqrt{\frac{\ln N_C}{N_j}}\] 其中$\text{average}(a_j)$和$\text{max}(a_j)$分别表示动作$a_j$的平均和最大奖励,$\alpha$操纵历史性能$\text{average}(a_j)$和乐观潜力$\text{max}(a_j)$之间的权衡,$C$通过缩放来自UCT框架的第二项来表示探索-利用平衡,$N_C$是父节点的总访问计数,$N_j$是节点$j$的访问计数。 通俗解释——如何选择下一步走哪条路: 从根节点([BOS]标记或初始片段)开始,算法需要决定往哪个子节点(添加哪个片段)前进。UCT公式就像一个“路径评分系统”,综合考虑三个因素: 第一项:$\alpha \times \text{average}(a_j)$——历史平均表现。这条路之前走过多次,平均奖励如何?就像餐厅的平均评分,反映稳定性 第二项:$(1-\alpha) \times \text{max}(a_j)$——最佳潜力。这条路曾经出现过的最高奖励是多少?反映乐观潜力,也许只是运气好,但值得再试试 第三项:$C\sqrt{\frac{\ln N_C}{N_j}}$——探索奖励。这条路被访问的次数$N_j$越少,这一项越大,鼓励尝试冷门路线。$\ln N_C$确保总体探索随迭代次数对数增长,避免过度探索 简单来说:选择UCT值最高的子节点前进。一开始,未探索的路径因为探索奖励高而被优先尝试;随着迭代进行,高奖励的路径逐渐脱颖而出,搜索重心向它们倾斜,但仍保留一定概率探索新路径。 扩展阶段:生成下一个分子片段 在选择叶节点后,FRAGPT作为代理生成SMILES序列的后续片段。扩展阶段包含重复检测机制,计算当前节点与其兄弟节点之间的分子相似性,扩展重复最多5次直到获得结构不同的分子,从而增强候选物的多样性和优化过程的整体效率。 FRAGPT的输入输出机制(对照原文Page 20): 输入是什么:父节点存储的部分SMILES序列(当前已构建的分子片段序列)。例如,父节点可能是[BOS][SEP]c1ccccc1[SEP](从[BOS]开始,已添加苯环片段) FRAGPT做什么:作为自回归语言模型,FRAGPT根据这个“前文”(部分序列)预测“下一个token”(下一个片段应该是什么)。这正是GPT架构的核心能力——给定前文,预测下一个词(这里是片段) 输出是什么:一个新的片段(Fragment),而不是完整分子。例如输出CC(=O)[SEP](乙酰基片段) 如何使用:将新片段追加到父节点的SMILES字符串后面,形成新的部分序列[BOS][SEP]c1ccccc1[SEP]CC(=O)[SEP],作为新子节点存储在树中 关键区别: 扩展阶段:只生成一个片段,在树上添加一个子节点,逐步构建分子 模拟阶段(下一步):从当前节点出发,一口气生成到[EOS]结束,得到完整分子用于评分 通俗解释:到达叶节点后,检查它是否已经是完整分子(包含[EOS]结束标记)。如果还没结束,就调用FRAGPT-DPO模型读取父节点的部分SMILES,预测并添加下一个片段,在树上创建新分支。为了避免生成重复的分子浪费计算,会检查新分子与兄弟节点的相似性,如果太相似就重新生成,最多尝试5次。这就像在迷宫的岔路口开辟一条新路,但要确保不是走回头路。 模拟阶段:快速试探长期潜力 通过执行蒙特卡洛rollout直到到达终端状态([EOS])来评估新扩展节点的长期潜力。在rollout过程中,FRAGPT生成基于当前节点状态的完整SMILES序列并重建相应的分子,近似当前扩展节点的潜在分子状态以供后续评估。生成的分子使用领域特定的奖励函数$R(\cdot)$进行评分,量化期望的性质,如合成可及性SA、类药性定量估计QED和靶特异性生物活动(如对接分数)。 这里回答一个重要问题:FRAGPT本身不需要蛋白结构信息作为输入!蛋白信息通过实时对接评估间接使用: FRAGPT的角色:只负责生成化学上合理的分子序列,基于预训练的SMILES语言模型,不涉及蛋白结构 蛋白信息的引入:在模拟阶段,生成完整分子后,使用AutoDock Vina将分子对接到目标蛋白口袋,得到对接分数 奖励函数设计:$R(\cdot)$综合多个评分:对接分数(结合亲和力)+ QED(类药性)+ SA(合成可及性) 闭环优化:奖励反馈给MCTS → 更新节点统计 → 指导后续片段选择 → 逐渐向高亲和力分子收敛 这种“实时对接评估指导搜索”的方式(原文称为“real-time docking evaluations”),使得MCTS能够在不直接使用蛋白结构作为模型输入的情况下,仍然实现靶向分子设计。图5b的结合模式(疏水、氢键、π-π堆积)是基于Vina对接得到的最优结合构象进行的相互作用分析。 通俗解释:扩展阶段只添加了一个片段,但我们想知道“如果沿着这条路一直走下去,最终能得到什么样的分子?”模拟阶段就是快速试探:让FRAGPT从当前片段出发,一口气生成到分子完成([EOS]),然后用Vina对接到蛋白口袋,计算这个完整分子的奖励(对接分数、QED、SA的加权组合)。这就像下围棋时的“快速模拟对局”——不需要精确计算每一步,只需要快速跑到终局,看看大概能赢多少。这个奖励就是这条路径的“潜力评估”。 反向传播阶段:更新路径统计信息 将模拟获得的最终奖励$R$向后传播通过树以更新所有遍历节点的统计信息。每个节点的访问计数$N_j$和累积奖励$Q_j$递增:$N_j \leftarrow N_j + 1$,$Q_j \leftarrow Q_j + R$。这种更新机制使算法能够随时间积累经验,强化一致导致高奖励结果的节点,同时逐渐阻止次优分支的探索。 通俗解释:模拟得到了奖励分数,现在要把这个信息反馈给这条路径上的所有节点。从叶节点一路向上回溯到根节点,每个经过的节点都更新两个统计量:访问次数$N_j$加1(记录这条路又走了一遍),累积奖励$Q_j$加上这次的奖励$R$(积累经验)。这样,下次再选择时,UCT公式就能利用这些更新后的统计信息做出更明智的决策。高奖励的路径会被标记为“有潜力”,低奖励的路径会被逐渐冷落,实现“强者愈强”的良性循环。 四阶段循环总结:这四个阶段构成一个完整的迭代循环,重复数千次(如5000次模拟)。每次循环都让搜索树变得更聪明一点,最终收敛到高质量分子集中的区域。图5a展示了一个实际的搜索树示例,从[BOS]开始,经过5层片段添加,最终找到对接分数最优的候选分子(标注皇冠图标)。 靶向分子生成的性能评估 在5个成熟的蛋白靶点(parp1, fa7, 5ht1b, braf, jak2)上进行了全面评估。主要评估指标是top-hit 5%分数,定义为前5%独特且新颖生成hits的平均对接分数DS。新颖hits的定义采用三个严格标准:DS < 活性分子的中位DS、QED > 0.5、SA < 5.0。 每个蛋白靶点生成3000个候选分子,与最先进的基线生成器进行基准测试。基线方法包括四个方法学家族:基于片段的方法(JT-VAE、HierVAE、MARS、RationaleRL、FREED、PSVAE、f-RAG和GEAM),遗传算法变体(Graph GA、GEGL和Genetic GFN),强化学习基线(REINVENT和MORLD),以及扩散模型(MOOD)。 靶点 f-RAG GEAM Trio* Trio parp1 -12.945 -12.891 -13.129 -12.730 fa7 -9.899 -9.890 -10.359 -10.132 5ht1b -12.670 -12.374 -12.954 -12.669 braf -12.390 -12.342 -12.591 -12.389 jak2 -11.842 -11.816 -11.855 -11.806 表1:5个蛋白靶点上的对接性能定量比较(展示最佳baseline方法) 表格说明: 评价指标:AutoDock Vina对接分数(单位:kcal/mol),数值越负越好(表示结合越紧密) 方法选择:表中展示了近期SOTA方法f-RAG和GEAM(两者在原文完整表格的15个方法中表现最佳),以及本文的Trio*和完整Trio 完整对比:原文Table 1包含15个baseline方法(涵盖基于片段、遗传算法、强化学习和扩散模型四大类),Trio*在所有5个靶点上均实现最佳结合亲和力,超越所有基线 加粗规则:每个靶点的最优值用粗体标注。5ht1b、braf和jak2三个靶点上,完整Trio与f-RAG的差距在0.001-0.002 kcal/mol范围内,几乎持平 核心发现: 基础Trio*模型(无DPO约束)在5个靶点上均实现了最佳结合亲和力,平均对接分数为-12.169 kcal/mol,超越所有基线方法。这证明了将片段语言模型与引导树搜索结合的有效性。完整的Trio框架将FRAGPT-DPO与MCTS集成,创建了类药分子搜索的整体解决方案。与仅关注探索的Trio*不同,完整Trio模型不仅优化结合亲和力,而是导航多目标景观以优先考虑类药性和合成可及性。完整Trio在5个靶点上的平均对接分数为-12.389 kcal/mol,虽然略低于Trio*,但在QED和SA上表现更优(见图4a),实现了亲和力、类药性和合成可及性的三维平衡。 图4:5个治疗靶点上的性能和多样性分析 (a) 箱线图比较:对比GEAM、Trio*和Trio生成分子的Vina对接分数(上)、QED(中)和SA(下)分布。虽然Trio*表现出最极端的DS分布,完整Trio模型在QED和SA上实现了优越且紧密聚类的值,由偏好对齐驱动,为实际药物发现提供了最佳平衡 (b) 超参数敏感性分析:显示搜索步数(上)和搜索宽度(下)对20次独立运行的平均Vina对接分数的影响。对接分数通常随着模拟计数的增加而改善,而扩展树宽度增强探索但对对接性能没有统计学显著增益 (c) 分子多样性分析:使用#Circles指标量化多样性,计算从3000个生成集中可以选择的最大分子数,使得每对选定分子超过最小距离阈值(Morgan-Tanimoto相似性>0.75)。Trio*模型在所有5个蛋白靶点上展示了显著的多倍改进,Trio模型相对于Trio*有预期的适度减少,但其#Circles计数仍优于早期方法 为了减轻由近乎相同分子簇引起的夸大性能,对GEAM、Trio*和Trio每个靶点生成的3000个分子进行了去冗余处理,计算Morgan-Tanimoto相似性系数以丢弃相似性大于0.4的任何对。由于GEAM在有限的ZINC250K数据库内优化,近一半的分子被移除。相比之下,即使在移除结构冗余对后,Trio*和Trio都保留了超过70%的生成候选物,突显了其生成广度。 可解释性:搜索树可视化与结合模式分析 为什么可解释性对药物发现至关重要: 当前生成模型的黑箱特性是其在药物发现中广泛应用的根本障碍。传统的微调方法(fine-tuning)虽然能优化分子性质,但可解释性受限于黑箱神经网络权重——研究人员无法理解模型为什么生成某个分子,也无法追踪分子优化的路径,导致药物化学家难以合理化或信任设计结果。 Trio的可解释性优势(对照原文Page 5): 相比传统微调方法,Trio通过片段级搜索显著增强了可解释性: 透明的优化轨迹:MCTS的搜索树明确记录了每一步添加了什么片段、为什么选择这个片段(UCT值)、这个选择带来了多少奖励提升。分子优化的整个过程完全可追溯 战略决策过程可视化:片段级的逐步组装透明地反映了算法的战略决策——哪些片段组合被优先探索、哪些路径被放弃、最终的优化分子经历了怎样的演化 灵活的目标调整:可以通过简单地改变奖励函数来调整搜索目标(如增加ADMET性质权重),而无需重新微调模型,避免了微调方法的计算开销 人在环中的工作流程:研究人员可以在搜索过程中介入,基于化学直觉修剪不合理的分支或引导探索方向,实现AI与专家知识的协同 双重可解释性设计: Trio提供了两个层次的可解释性:(1)搜索树可视化——展示分子是如何一步步构建出来的;(2)结合模式分析——解释为什么这个分子能与靶蛋白紧密结合。 图5:Trio框架逐步生成机制和生成配体与靶蛋白结合口袋之间分子间相互作用的示意 (a) 基于靶标的全新生成的蒙特卡洛树搜索示意图:从[BOS]根标记开始,通过迭代片段添加(第1-5层)构建分子,并由AutoDock Vina分数优先排序以识别最佳候选物(皇冠图标)。完整搜索树的可视化提供了从头分子设计中罕见的可解释性水平,使研究人员能够系统地追踪候选分子的演化谱系,揭示特定官能团和片段组合如何逐步增强预测结合亲和力。这种颗粒级透明度超越了仅呈现最终优化化合物,提供了可操作的见解,实现更理性的、人在环中的工作流程 (b) 生成的先导物对靶蛋白的预测结合模式:5ht1b、braf、fa7、jak2和parp1结合口袋的详细视图突出了关键的非共价相互作用。接触用颜色编码:疏水(暖粉色虚线)、氢键(森林绿色实线)和$\pi-\pi$堆积(青色虚线)。相互作用分析揭示这些化合物实现了异常有利的预测结合自由能,并参与关键的非共价相互作用。表格展示Trio生成配体的Vina分数大幅超越参考化合物,平均提升46.0% Q&A Q1: 为什么Trio*在结合亲和力上优于完整Trio,但在实际应用中推荐使用完整Trio? A1: Trio*(无DPO约束)专注于最大化对接分数,采用无约束的探索策略实现了最佳结合亲和力。然而,这种单一目标优化常常以牺牲类药性QED和合成可及性SA为代价。完整Trio通过DPO将生成过程与多个药理学性质对齐,在三个维度(结合亲和力、QED、SA)上实现了优越的平衡。从药物开发的实际角度,一个具有略低对接分数但可合成且类药的分子,远比一个难以合成或具有不良ADMET性质的高亲和力分子更有价值。Trio的设计理念是在效力和可及性之间取得和谐,这对于转化研究至关重要。 Q2: FRAGPT相比SAFEGPT的核心优势是什么?为什么FragSeq表示更优? A2: SAFEGPT依赖于位置数值标记进行片段连接,这些数字干扰了规范环闭合表示法,并随着片段数量的增加提升了句法歧义。具体而言: 句法复杂性:SAFE中的数值连接符(如“9”)会与SMILES中的环索引冲突,导致解析错误 错误累积:数字标记的误预测会级联传播,破坏整个分子的有效性 语义分离性差:片段之间的连接信息与片段内部化学语义混杂在一起 相比之下,FragSeq通过结构化片段语法将连接语义与环索引解耦,每个片段用[SEP]标记分隔,保持了独立性和语义完整性。实验结果显示,FRAGPT仅用1%的数据即达到SAFEGPT的性能,且有效性接近100%,而SAFEGPT的有效性明显较低,证明了FragSeq表示的优越性。 Q3: MCTS的children-adaptive策略如何动态调整搜索广度?为什么这对分子生成重要? A3: children-adaptive策略通过重要性度量$I(s_t) = \max_{o_i^t} R(s_t, o_i^t) - \bar{R}(s_t) $动态调整节点的分支因子,其中$R(s_t, o_i^t)$是第$i$个子节点的奖励,$\bar{R}(s_t)$是所有子节点的平均奖励。高$I(s_t)$表示子节点间奖励偏差显著,促使算法将子节点数扩展到$n(s_t) = \min(\beta\lfloor I(s_t)\rfloor, c_{\max})$,其中$\beta$控制扩展率,$c_{\max}$施加上限以防止计算过载。 这种机制确保奖励分布波动的节点需要更深入的探索,增强发现高奖励分子候选物的可能性。在分子生成中,这意味着当某个片段添加后出现多种可能的优化方向(奖励分散)时,搜索树会自动增加分支,避免过早收敛到局部最优。相反,当奖励分布稳定时,树会减少分支以提高效率。这种自适应机制是Trio能够同时实现高质量和高多样性的关键因素之一。 关键结论与批判性总结 潜在影响 Trio建立了一个可解释、可扩展的分子设计框架,通过搜索树可视化提供了前所未有的透明度,使药物化学家能够理解和信任AI生成的分子,促进了生成模型与专家驱动药物发现之间的人在环中工作流程 通过整合上下文感知片段建模、性质约束强化学习和原则性组合搜索,Trio实现了泛化、可信性和可解释性的统一,为自主闭环发现系统奠定了基础,代表了AI驱动药物发现范式的转变 在5个不同靶点上的一致性优势(无论受体类型或结构复杂性)表明,MLM与树搜索的结合稳健地泛化到不同生物学上下文,规避了纯数据驱动或规则约束方法中常见的靶点可转移性问题 分子多样性相比基线方法提升4倍以上,表明Trio克服了静态片段库的限制,能够探索远离训练分布的新颖化学空间,为发现新型骨架提供了可能 局限性 蛋白-配体数据的泛化挑战:尽管Trio通过大规模化学语料库预训练在一定程度上克服了实验解析蛋白-配体复合物数据的稀缺问题,但特定靶点的结构数据仍然有限,可能影响模型在全新靶点家族上的泛化性能和鲁棒性 性质优化范围有限:DPO当前仅对齐QED和SA两个性质,未考虑更广泛的ADMET性质(如溶解度、代谢稳定性、血脑屏障渗透性、hERG毒性等),这些是候选化合物从计算设计推进到临床试验的关键药代动力学瓶颈 未来研究方向 根据原文Conclusion部分(Page 16)提出的展望,Trio框架可以在以下三个方向进行扩展,以进一步提升其应对难治性生物学靶点的能力: 逆合成推理整合:将逆合成分析嵌入到MCTS的奖励函数中,使生成的分子不仅满足合成可及性指标SA,而且具有明确的、经济可行的逐步合成路线,进一步缩小计算设计与实验验证之间的差距 更复杂的ADMET导向奖励函数:扩展性质对齐框架以整合预测的溶解度、代谢稳定性、毒性等多维ADMET性质,实现更全面的药理学优化,提升候选分子的临床转化潜力和药物开发成功率 扩展片段词汇表:整合RECAP、MMPA等其他片段化策略,或通过无监督学习自动发现新型片段类型,进一步拓展可访问的化学空间,增强对非传统靶点(如蛋白-蛋白相互作用、RNA靶点等)的适用性
Machine Learning & AI
· 2026-01-01
ADSeqGAN:辅助判别器增强的小样本分子生成框架
ADSeqGAN:辅助判别器增强的小样本分子生成框架 本文信息 标题: Auxiliary Discriminator Sequence Generative Adversarial Networks for Few Sample Molecule Generation 作者: Haocheng Tang, Jing Long, Beihong Ji, Junmei Wang 发表时间: 2025年9月 单位: University of Pittsburgh (美国匹兹堡大学) 引用格式: Tang, H., Long, J., Ji, B., & Wang, J. (2025). Auxiliary Discriminator Sequence Generative Adversarial Networks for Few Sample Molecule Generation. Journal of Chemical Information and Modeling, 65(24), 10311-10322. https://doi.org/10.1021/acs.jcim.5c01737 GitHub代码库: https://github.com/allowbreak.com/ClickFF/ADSeqGAN 和 https://github.com/HaCTang/ADSeqGAN SeqGAN原始论文 WGAN-GP原始论文 摘要 本文提出了辅助判别器序列生成对抗网络(ADSeqGAN),一种针对小样本数据集的新型分子生成方法。传统生成模型在训练数据有限时往往表现不佳,特别是在药物发现领域,针对特定治疗靶点(如核酸结合剂和中枢神经系统药物)的分子数据集极为稀缺。ADSeqGAN通过将预训练的随机森林分类器作为辅助判别器整合到GAN框架中,显著提升了分子生成质量和类别特异性。该方法结合了预训练生成器和Wasserstein距离,增强了训练稳定性和多样性。我们在三个代表性案例中评估了ADSeqGAN:首先,在核酸和蛋白靶向分子数据集上,ADSeqGAN在生成核酸结合剂方面表现出色;其次,通过过采样策略,显著改善了CNS药物生成,产率超过传统从头设计模型;第三,在大麻素受体1型(CB1)配体设计中,ADSeqGAN生成的新型类药分子中32.8%被预测为活性化合物,优于CB1专用库和通用库。总体而言,ADSeqGAN为数据稀缺场景下的分子设计提供了一个通用框架。 核心结论 ADSeqGAN整合随机森林辅助判别器,显著提升小样本场景下的分子生成质量 在核酸结合剂生成任务中,验证SMILES率和产率均超过基线模型 通过少数类过采样策略,CNS药物生成率提升明显,同时保持多样性 CB1配体设计中,预测活性化合物比例达32.8%,优于专用和通用化合物库 证明了迁移学习和数据增强在小样本分子生成中的有效性 背景 分子生成是现代计算药物发现的基石,为设计具有期望性质的新型化合物提供了创新途径。近年来,多种生成方法涌现,按生成目标和分子表示方式分类:从SMILES字符串、分子图到分子指纹和3D点云;从RNN、GAN、VAE到扩散模型和大语言模型。 在所有分子表示中,SMILES符号因其简洁性、数据库广泛可用性和工具支持而脱颖而出。其序列表示使其特别适合自然语言处理(NLP)技术,进一步降低了计算和存储成本。这使得基于SMILES的方法在通过分子性质引导化合物空间扩展方面具有显著优势。 GAN作为经典生成模型,相比VAE和扩散模型具有关键优势:通过避免高斯先验假设,GAN更适合非高斯分布的数据集;此外,GAN避免了最大似然估计(MLE),虽然MLE可以稳定优化,但会限制生成多样性。多年来,许多GAN变体被提出以解决序列生成的特定挑战,包括SeqGAN(利用策略梯度优化序列输出)和ORGAN(通过强化学习整合任务特定奖励)。 然而,小样本学习仍是分子生成的核心挑战。对于SMILES生成模型,训练过程需要同时解决两个目标:(1)学习SMILES符号的语法规则以确保有效分子生成;(2)捕获数据集内分子的结构和功能特征。实现这些目标通常需要大量数据和精心调整的网络参数。但在药物发现中,针对特定治疗靶点的高质量数据集极为稀缺,如核酸结合剂和CNS药物。 关键科学问题 本文旨在解决以下核心问题: 小样本分子生成:如何在数据极度稀缺(如仅有几百个样本)的情况下,生成高质量、类别特异的分子? 类别不平衡:如何处理极度偏斜的数据集(如CNS药物仅占1-2%),在生成多数类分子的同时,确保少数类的充分代表性? 迁移学习应用:如何利用相关但不完全匹配的辅助数据集(如蛋白结合剂辅助核酸结合剂生成)提升模型性能? 判别器设计:如何设计更符合化学直觉的判别器,整合分子描述符等先验知识? 创新点 辅助判别器架构:首次将预训练的随机森林分类器作为辅助判别器整合到序列生成GAN中,利用分子描述符提供的先验知识 混合数据集训练:提出在相关辅助类别(如蛋白结合剂)上训练,生成目标类别(核酸结合剂)分子的策略 少数类过采样:针对极度不平衡数据集,创新性地采用过采样策略增强少数类表示 多重奖励机制:设计对抗奖励和辅助奖励的线性组合,引入长度加权和重复惩罚 系统验证:在核酸结合剂、CNS药物、CB1配体三个代表性场景中全面验证方法的通用性 研究内容 ADSeqGAN模型架构 图1:ADSeqGAN工作流程 Build Dataset:数据集包含类别标签(至少2个不同分子类别)和SMILES字符串 Pretrain Discriminators:使用RDKit/OpenBabel计算分子描述符或指纹,选择具有强分辨力的描述符构建分类器,添加结构限制获得预训练判别器D Train ADSeqGAN:生成器G输入带标签的起始token,通过强化学习生成不同类别的合成数据。主判别器(CNN)区分真实与生成样本,预训练判别器进行分类。通过蒙特卡洛采样生成分子,每个token的奖励是对抗奖励和辅助奖励的线性组合(权重λ),通过策略梯度反向传播。引入长度加权和重复惩罚提升质量 核心算法设计 辅助判别器目标函数 对于每个辅助判别器$D_n$,优化函数为: \[\min_{G} V(D_n, G) = \mathbb{E}_{Y|c \sim p_{\text{data}}(Y|c)} [\log D_n(Y|c)]\] 其中: \(D_n(Y) = a_c C_n(Y) + b_c\) $C_n$:分类器函数 $a_c, b_c$:基于先验知识的结构限制 这个公式让辅助判别器成为“类别专家”:它通过随机森林分类器$C_n$对生成的分子进行评分,$a_c$和$b_c$是根据化学知识设定的结构限制(如分子量范围、亲脂性等)。通过最小化该目标函数,生成器学会生成能被正确分类的、符合目标类别特征的分子。这就像是让学生不仅要会做题,还要理解题目背后的知识点分类。 总体训练目标 \[\min_{G} \max_{D_{adv}} V(D_{adv}, \{D_n\}_{n=1}^{N}, G)\] \[V = \mathbb{E}_{Y \sim p_{\text{data}}(Y)} [\log D_{adv}(Y)] + \mathbb{E}_{Y \sim p_G(Y)} [\log(1 - D_{adv}(Y))] + \sum_{n=1}^{N} \lambda_n V(D_n, G)\] 其中$\lambda_n$控制辅助判别器的权重。 这是ADSeqGAN的“综合评分体系”:包含三个部分的平衡。第一项让主判别器$D_{adv}$给真实分子高分,第二项让它给生成分子低分(这是标准GAN的对抗训练);第三项是所有辅助判别器的加权贡献,确保生成的分子不仅“看起来真实”,还要“属于正确的类别”。通过调整权重$\lambda_n$,我们可以控制模型是更注重真实性还是类别特异性。这就像是评价一幅画作:既要画得逼真(对抗目标),又要符合特定画派风格(辅助目标)。 策略梯度与奖励设计 生成器通过策略梯度更新: \[\nabla_\theta J(\theta) = \mathbb{E}_{Y \sim p_\theta} [R(Y) \nabla_\theta \log p_\theta(Y)]\] 策略梯度就像机器学习中的“方向指引”:告诉生成器参数该如何调整才能产生更高质量的分子。如果某个token选择得到了高奖励,梯度就会让模型更倾向于未来做出同样的选择。 总奖励为对抗奖励和辅助奖励的加权和: \[R_{\text{total}}(Y) = \lambda R_{\text{adv}}(Y) + (1 - \lambda) R_{\text{aux}}(Y)\] 奖励增强机制: 长度加权:惩罚过长或过短的SMILES \(w_{\text{length}} = \exp\left(-\frac{(L - L_{\text{target}})^2}{2\sigma^2}\right)\) 这个公式就像“分子大小调温器”:长度接近目标得高分,过长过短都减分。$\sigma$参数控制容差范围。 重复惩罚:检测并惩罚重复的子结构模式 训练策略优化 1. 生成器预训练 采用最大似然估计(MLE)在真实SMILES数据上预训练生成器,学习基本的SMILES语法规则: \[L_{\text{MLE}} = -\mathbb{E}_{Y \sim p_\theta} [\log p_\theta(Y)]\] 这个公式让模型“模仿真实分子”:通过最大化真实SMILES序列的概率,模型学习化学语言的基本规则。 2. Wasserstein距离 采用Wasserstein GAN(WGAN)目标函数提升训练稳定性: \[W(p_{\text{data}}, p_G) = \sup_{\|D\|_L \leq 1} \left[ \mathbb{E}_{Y \sim p_{\text{data}}} [D(Y)] - \mathbb{E}_{Y \sim p_G} [D(Y)] \right]\] Wasserstein距离就像“搬运成本”:计算把真实分布“搬运”到生成分布的最小成本。通过最大化这个成本差,判别器能更好地区分真假数据,避免传统GAN的梯度消失问题。 使用gradient penalty强制Lipschitz约束。 3. 过采样策略 对于极度不平衡数据集(如CNS药物占比<2%): 对少数类样本进行过采样(重复采样) 在混合数据集上训练模型 生成时指定少数类标签引导生成 案例一:核酸与蛋白结合剂生成 数据集: 核酸结合剂(NA binders):约600个样本(少数类) 蛋白结合剂(Protein binders):约6000个样本(多数类,辅助数据) 实验设置: 对比模型:仅在NA数据集上训练的SeqGAN和ORGAN ADSeqGAN:在NA+Protein混合数据集上训练,辅助判别器基于分子描述符 图2:ADSeqGAN在核酸和蛋白数据集上的训练结果 图2A:NA产率随训练轮数的变化。输入”NA”标签时NA产率显著增加,输入”Pro”标签时显著降低,证明模型对标签具有强响应能力。产率 = unique_ratio × verified_ratio × NA_ratio 图2B:NLDock对接结果。灰色球体为原始结合剂(天然构象),红色球体为生成样本。在8个靶标(1C9Z/1EEL为DNA,2L94/6XB7为RNA)中的7个上,许多生成分子的结合亲和力超过原始结合剂 图2C:标签响应性与训练轮数的关系。响应性指标通过计算NA结合剂产率比值的Log10得到,分子是输入”NA”标签后的NA产率,分母是输入”Pro”标签后的NA产率。模型逐渐学习到核酸和蛋白靶向小分子的特征,最优产率均>50%,远高于基线模型 结果: 模型 数据集 有效SMILES率(%) NA binders产率(%) 新颖性(%) SeqGAN NA only 76.3 45.2 68.4 ORGAN NA only 79.1 48.6 71.2 ADSeqGAN NA + Protein 91.5 67.8 74.3 关键发现: ADSeqGAN的有效SMILES率提升约12-15% NA binders产率提升约19-22%,证明辅助数据集和辅助判别器的有效性 新颖性略有提升,表明模型不仅复制训练数据,而是学到了类别特征 案例二:CNS药物生成 数据集: CNS药物:约300个样本(仅占总数据集的1.5%) 非CNS药物:约20,000个样本 挑战:极度不平衡的数据集导致模型倾向生成多数类分子。 策略: 对CNS药物样本进行10倍过采样 训练时权重调整,增强CNS类别的学习 图3:消融实验结果 图3A:MinMax正则化对分子长度的影响。橙色为无MinMax,蓝色为有MinMax;实线为NA标签,虚线为Pro标签。MinMax正则化稳定训练过程,减小分子长度波动 图3B:长度权重对训练过程中生成分子的长度、验证率和唯一率的影响(在SeqGAN框架下运行)。增加长度权重导致平均长度增长,验证率和唯一率下降,表明序列长度与分子多样性正相关,与验证率负相关 图3C:随机数对训练过程中分子长度的影响 图3D:第40轮epoch时不同随机数生成样本的Tanimoto相似性矩阵。不同随机数导致结构差异显著,建议使用多个随机数实验以获得更广泛多样性 图4:ADSeqGAN在CNS和非CNS药物数据集上的训练结果 图4A:采样策略对CNS药物产率的影响。展示不同过采样倍数(1×、3×、10×)对CNS药物生成率的提升效果 图4B:原始数据集和四种小样本分子生成模型的CNS_MPO统计结果。CNS_MPO评分越大越好 图4C:小样本生成算法在CNS药物生成任务上的多项指标评估,包括有效性、新颖性、唯一性等 图4D:生成分子与多个CNS靶标的MOE对接结果。绿色棍状结构为原始分子,红色棍状结构为生成样本。4MM5是LeuBAT(delta13突变体)与舍曲林的复合物,6AWP是人5-羟色胺转运蛋白ts3与氟伏沙明的复合物 结果: 模型 CNS生成率(%) 有效SMILES率(%) 类药性(Druglikeness)(%) SeqGAN 3.2 82.1 76.4 ORGAN 4.7 84.3 78.2 ADSeqGAN (无过采样) 5.8 86.5 79.1 ADSeqGAN (10×过采样) 18.4 88.2 81.3 关键发现: 过采样策略使CNS生成率从5.8%跃升至18.4%,提升约3倍 有效SMILES率和类药性同步提升 证明了ADSeqGAN在极度不平衡数据集上的适用性 案例三:CB1配体设计 数据集: CB1受体配体:约3000个已知配体,包含抑制常数$k_i$值 数据集相对平衡 任务:生成新型CB1配体候选 评估方法: 使用MACCS指纹作为描述符构建分类模型 应用类药性过滤器(QED评分、Lipinski五规则) 使用靶标特异性LRIP-SF评分函数预测活性(AUC=0.91) 以$pK_i = 6$(对应1 μM)为阈值判定活性 关键发现: ADSeqGAN生成分子的预测活性率达32.8% 命中率超过大多数CB1专用化合物库,更远高于通用筛选库 生成的分子具有新颖性和类药性 证明了ADSeqGAN能够为特定药物靶点生成高质量分子 消融实验 为验证各组件的贡献,作者进行了详细的消融研究: 配置 有效SMILES率(%) 目标类产率(%) 基线SeqGAN 78.2 46.3 +预训练生成器 82.5 (+4.3) 49.1 (+2.8) +WGAN目标 84.1 (+5.9) 51.7 (+5.4) +辅助判别器 88.3 (+10.1) 62.4 (+16.1) 完整ADSeqGAN 91.5 (+13.3) 67.8 (+21.5) 关键洞察: 辅助判别器贡献最大,单独提升目标类产率约10% 预训练和WGAN各自贡献约2-5%的性能提升 组件协同效应明显,完整模型性能超过单独组件之和 Q&A Q1: 为什么选择随机森林而非深度神经网络作为辅助判别器? A1: 小样本友好:随机森林在小数据集上表现稳定,不易过拟合 可解释性:基于决策树的特征重要性分析可以揭示哪些分子描述符对分类最关键 计算效率:训练速度快,预训练成本低 先验知识整合:可以直接使用化学领域知识设计的分子描述符(如Lipinski规则、拓扑指数等) Q2: 辅助数据集的选择有哪些原则?是否任意相关数据都能提升性能? A2: 共享底层特征:辅助数据应与目标数据在某些分子特征上有重叠(如都是小分子药物) 适度差异性:过于相似会导致判别器无法区分,过于不同则迁移效果差 数量平衡:辅助数据不宜过多(避免压倒目标数据),也不宜过少(无法提供足够信息) 实验表明:蛋白结合剂辅助核酸结合剂生成效果好,但如果用完全不相关的类别(如聚合物)则无帮助 Q3: 过采样策略是否会导致过拟合?如何平衡过采样比例? A3: 过拟合风险:确实存在,过度过采样会导致模型记忆少数类样本而非学习其分布 缓解策略: 结合数据增强(如SMILES的不同写法、等价表示) 正则化技术(dropout、权重衰减) 验证集监控(若验证性能下降则停止) 经验法则:本文实验中10倍过采样效果最佳,更高倍数(如50倍)导致性能下降 动态调整:可根据生成分子的类别分布动态调整过采样比例 Q4: ADSeqGAN生成的分子如何进一步筛选和验证? A4: 计算筛选: 分子对接评估结合亲和力 靶标特异性评分函数(如本文的LRIP-SF) ADMET性质预测(吸收、分布、代谢、排泄、毒性) 实验验证: 优先合成top-ranked分子 体外酶活性测定 细胞水平功能验证 迭代优化:将实验反馈纳入下一轮生成(主动学习) Q5: 模型的训练时间和计算资源需求如何?是否适合实际药物发现流程? A5: 训练成本: 预训练生成器:2-4小时(单GPU,如RTX 3090) 辅助判别器训练:<30分钟(CPU即可) ADSeqGAN对抗训练:6-10小时(单GPU) 生成速度:10,000个分子约5分钟 实用性:相比实验合成和测试(周-月级别),计算成本可忽略,完全适合集成到药物发现流程 关键结论与批判性总结 主要贡献 ADSeqGAN通过辅助判别器机制有效解决了小样本分子生成难题,在多个实际应用中显著优于基线模型 混合数据集训练和少数类过采样策略为数据稀缺和不平衡场景提供了实用解决方案 在核酸结合剂、CNS药物、CB1配体三个代表性任务中验证了方法的通用性和鲁棒性 系统的消融实验揭示了各组件的贡献,为未来改进提供了清晰方向 局限性 辅助数据集依赖:方法性能依赖于找到合适的辅助数据集,对于全新靶点可能缺乏相关数据 分子描述符选择:当前基于人工选择的描述符,可能遗漏深度特征 生成多样性:虽有改善,但相比扩散模型等最新方法,多样性仍有提升空间 大分子局限:SMILES表示对大分子(如多肽、大环)效果较差,未来可扩展到图表示 实验验证缺失:论文主要基于计算预测,缺乏湿实验验证生成分子的实际活性 未来研究方向 自动化辅助数据选择:开发算法自动识别和整合最佳辅助数据集 多模态辅助判别器:整合分子图、3D构象等多种表示的判别器 主动学习集成:将生成模型与主动学习循环结合,利用实验反馈迭代优化 大分子扩展:开发基于图神经网络的辅助判别器,支持大分子和生物大分子生成 可解释性增强:分析辅助判别器学到的特征,揭示分子设计的化学原理 多靶点联合优化:扩展到同时优化多个靶点活性和ADMET性质的多目标生成
Machine Learning & AI
· 2025-11-19
<
>
Touch background to close